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RESUMEN 


El objetivo del presente proyecto es implementar la técnica análisis multivariado (Análisis de 
Componentes Principales ACP) para el acompañamiento de estudios prospectivos en la 
plataforma SoftProsp. Ésta puede ser aplicada a matrices que contienen grandes dimensiones de 
datos experimentales con multitud de variables (Rodríguez, Matera y Pérez, 2016). En 
particular, el Análisis de Componentes Principales (PCA) parte del análisis de factores, donde 
su finalidad es agrupar variables que tienen correlación entre sí, separándolas de las que no 
(Quiroga y Villalobos, 2015). En cuanto a los resultados, se pretende optimizar la utilización de 
ésta técnica con herramientas como el Test de Barlett, el método de rotación ortogonal Varimax 
y gráficos de sedimentación (Scree-plot), y además, apoyar al desarrollo de análisis 
multivariado con otras técnicas prospectivas implementadas en la plataforma. 
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ABSTRACT 


The objective of the present project is to implement the multivariate analysis technique 
(Principal Components Analysis ACP) for the accompaniment of prospective studies in the 
SoftProsp platform. This can be applied to matrices that contain large dimensions of 
experimental data with a multitude of variables (Rodríguez, Matera and Pérez, 2016). In 
particular, the Principal Component Analysis (PCA) starts from the analysis of factors, where its 
purpose is to group variables that have correlation with each other, separating them from those 
that do not (Quiroga and Villalobos, 2015). As for the results, 1t is intended to optimize the use 
of this technique with tools such as the Barlett test, the Varimax orthogonal rotation method and 
sedimentation graphs (Scree-plot), and also support the development of multivariate analysis 
with other techniques prospects implemented in the platform. 
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INTRODUCCIÓN 


Las técnicas estadísticas multivariadas son cada vez más utilizadas en diferentes ramas 
de la ciencia. Estas, se caracterizan por permitir adoptar mejores decisiones a partir de la 
observación y análisis de escenarios bajo condiciones de incertidumbre, aleatoriedad y 
variabilidad (Vertel, Cepeda y Lugo, 2014). 


Existen varias técnicas multivariadas que son clasificadas en consideración de dos 
criterios, el primero atiende al objetivo científico principal de la investigación, ya sea 
para extracción de información (enfoque descriptivo) o para generación de 
conocimiento (enfoque inferencial). Ambos enfoques pueden vincularse a objetivos 
especificos de reduccion de información y obtención de indicadores. El segundo criterio 
considera la naturaleza o tipo de variables involucradas y las relaciones entre ellas ( 
Dependiente (D); Dependiente, criterios o explicadas(VD); independientes, predictoras 
o explicaticas(VI); interdependiente (D)). (Quero e Inciarte, 2012) 


Para el primer enfoque se distinguen las técnicas: Análisis de métodos categóricos, 
análisis factorial, análisis de correlación canónica, análisis de cluster y el análisis de 
componentes principales; y para el último: regresión lineal múltiple, análisis 
discriminante lineal, análisis multivariado de varianza y covarianza (Manova), 
ecuaciones estructurales y regresión logística (Álvarez, Caballero y Pérez, 2006). 


Para el desarrollo de estudios prospectivos son utilizadas técnicas con amplia 
aplicabilidad en distintas disciplinas cientificas, con el proposito de identificar los 
escenarios futuros mas probables y deseables hacia los cuales debe dirigirse una 
organización, región o país. (Miklos y Arroyo, 2008) 


Existen mas de 120 técnicas y dentro de estas se resaltan las de análisis multivariado. 
En Barahona y otros (2016), analizan prospectivamente que factores relacionados con 
las caracteristicas del paciente, la cirugía y la litasis, constituyen efectivamente factores 
de riesgo preoperatorios e interoperatorios para el Sindrome de respuesta inflamatoria 
sistématica (SIRS) y sepsis de foco urinario en pacientes sometidos a Nefrolitectomía 
Percutánea(NLP). Por otro lado, Herrera, García, Suárez y Boirivant (2015) proponen 
un procedimiento integrador para el analisis retrospectivo y prospectivo de sistemas 
lecheros. Por último, Torres, Méndez-Fajardo, López-Kleine, Galarza-Molina y Oviedo 
(013) evaluán que variabes caracterizan el nivel de desarrollo y calidad de vida de las 
comunidades que habitan las localidades de Bogotá, en el que se realizaron pruebas de 
correlación y análisis de componenetes principales para evaluar el indicador 
Condiciones sanitarias deficientes y necesidades básicas insatisfechas(NBD. 


No obstante, para la elaboración de estudios prospectivos se requiere de un alto 
presupuesto, debido a la cantidad de recursos y dificultades que se presentan (Cabarcas, 
Martelo y Tovar, 2013). Por estas razones, entidades como 1 LIPSOR, 2 3IE y 3 
EPITA han desarrollado softwares con el propósito de mejorar la forma en que son 
realizados. Estas herramientas no cubren todas las falencias que se presentan en la 
forma tradicional de realizar prospectiva, por lo que la Universidad de Cartagena 
desarrollaron la plataforma SoftProsp con el propósito de cubrir algunas necesidades 


faltantes (Martelo, Moncaris y Velez, 2016). 
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SoftProsp utiliza recursos de Ingeniería de Software, Inteligencia Computacional, 
Sistemas de Información Geográficos y Tecnologías de la Información y las 
Comunicaciones, por tanto, el propósito del presente documento es informar acerca de 
los beneficios de la implementación de estadísticas multivariadas en esta plataforma. 
Ahora, teniendo en cuenta la multiplicidad de técnicas existentenes para este tipo 
analisis, se consideró implementar el Analisis de componentes principales, esta resume 
la información original (varianza) en una cantidad minima de factores con propositos de 
predicción. 


11. MATERIALES Y MÉTODOS 


El presente proyecto se orienta bajo una investigación aplicada y documental. Aplicada 
porque se estudia un problema que conlleva al desarrollo de un aporte innovador y se 
están destinando esfuerzos para resolver una de tantas necesidades de la sociedad 
(Vargas, 2009). Documental porque en la búsqueda de respuestas específicas, se 
indagan teorías, libros, publicaciones científicas, entre otros documentos asociados a la 
técnica estadística bayesiana (Baena, 2014). 


2.1 Procedimiento de la investigación 


Fig. 1: Procedimiento de la investigación. 


Con el propósito de implementar la técnica estadística bayesiana en la plataforma 
SoftProsp, se ha diseñado el modelo de la Figura 1, el cual dispone de las siguientes 
etapas: 


2.2 Recolección de información 


Para la recolección de información se han utilizado las técnicas: entrevista con el 
propósito de obtener información en relación con un tema determinado, buscar que la 
información recabada fuera los más precisa posible y aclarar los significados atribuidos 
por los informantes en los temas en cuestión (Díaz-Bravo, Torruco-García, Martínez- 
Hernández y Varela-Ruiz, 2013); y revisión y análisis documental para buscar, 
seleccionar, organizar y analizar un conjunto de materiales escritos que den respuesta a 
una O varias incógnitas (Bermeo- Y affar, Hernández-Mosqueda yTobón-Tobón, 2016) . 
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2.3 Aplicación de la metodología de desarrollo RUP 


Como metodología de desarrollo software se utilizará RUP (Proceso Unificado de 
Rational), el cual proporciona un acercamiento disciplinado a la asignación de tareas y 
responsabilidades en una organización de desarrollo y tiene como objetivo principal, 
asegurar la producción de software de alta calidad que se ajuste a las necesidades de los 
usuario finales con costos y calendarios predecibles. Además, se caracteriza por ser una 
metodología iterativa e incremental y por enfocarse en los casos de uso y la arquitectura 
de la solución (Martínez y Martínez, 2002). 


Las fases de esta metodología de desarrollo son: 

Inicial 

Se obtienen los requerimientos de la técnica estadística bayesiana. Para esto se realizan 
revisiones bibliográficas y entrevistas a expertos. 

Elaboración. 

Abarca el diseño de modelos y diagramas UML a partir de los requerimientos 
establecidos. 

Construcción. 

En esta fase se realiza el desarrollo de las funcionalidades, componentes y estructura de 
datos; también se realiza la documentación técnica a partir de los diagramas, modelos y 
patrones arquitectónicos establecidos en la fase anterior. 

Transición 

En esta última fase se realizan las pruebas acorde a los atributos de calidad que más se 
ajustan al sistema y finalmente se elabora la documentación final del proyecto. 


2.4 Integración de estadísticas bayesianas a SoftProsp 
Culminado el proceso de desarrollo de la técnica estadística bayesiana se procede a 
integrar ésta con el grupo de técnicas disponibles en la plataforma SoftProsp. Para 
verificar el adecuado funcionamiento de estadísticas bayesianas con los otros 
componentes o módulos del sistema, se realizaran pruebas de integración. 


IM. RESULTADOS Y DISCUSIÓN 


A continuación se presentan los resultados obtenidos a partir de los pasos establecidos 
en el procedimiento de la investigación: 


3.1 Recolección de Información 


En virtud de los resultados obtenidos en esta etapa, se pudo definir que las técnicas de 
análisis multivariado difieren de las uni y bivariantes, en las que se analizan covarianzas 
o correlaciones que reflejan relaciones entre tres o más variables. Los objetivos que 
persiguen éstas son proporcionar métodos para el estudio conjunto de datos 
multivariantes y apoyar en la toma de decisiones teniendo en cuenta la información que 
aporta el conjunto de datos analizado. (Closas, Arriola, Kuc, Amarilla y Jovanovich, 


2013) 
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Con relación a lo expuesto previamente, Peña (2002) añade que el análisis de datos 
multivariantes tiene por objeto el estudio estadístico de varias variables medidas en 
elementos de una población. Ademas, agrega que estas pretenden resumir un conjunto 
de variables sin perder la minima información, encontrar posibles grupos en los datos, 
clasificar las observaciones en grupos definidos y relacionar dos conjuntos de variables. 


Las técnicas multivariables se pueden clasificar según los siguientes criterios: El primer 
criterio de clasificación depende del modelo de análisis de la investigación y se 
establece teniendo en cuenta la finalidad análitica explicativa; el siguiente, es algebraico 
y técnico-instrumental, como condición previa a toda finalidad analítica; y un último, 
que conjuga los dos anteriores con la métrica de las variables(técnicas de 
interdependencia). (López-Roldán y Fachelli, 2015) 


De acuerdo a lo anterior, las técnicas multivariantes pueden ser clasificadas en: 

Técnicas de exploración de datos: regresión múltiple, análisis discriminate, métodos 
log-lineales y logit, análisis de correlación canónica, análisis multivariante de la 
varianza. 

Técnicas de Inferencia: análisis de componentes principales, análisis factorial, 
multidimensional scaling, análisis de correspondencias, análisis de cluster. 


A partir de la información recopilada, se consideró necesario limitar el alcance en el 
proceso de implementación e integración de las técnicas Analisis multivariado en la 
plataforma SoftProsp, debido a la variedad de técnicas existentes. Por ello, el alcance 
del proyecto abarcaría solo la técnica Análisis de Componentes principales (ACP). 


Esta técnica apoya el estudio e interpretación de amplios datos muestrales, se 
caracteriza por no distinguir entre variables dependientes e independientes y su objetivo 
principal consiste en identificar las variables y/o objetos de estudio que estan 
relacionados, centrando su atención en cómo lo están. Ademas, combina las variables 
buscando elementos comunes y eliminando las redundancias, de forma que las variables 
iniciales se convierten en un pequeño número de variables artificiales o factores que 
explican un alto porcentaje de la información. (Unceta, Gutiérrez-Goiria y Goitisolo, 
2014) 


De Carmona (2014) se pudieron obtener las etapas que conforman la técnica Análisis de 
Componentes Principales ( ver Figura 2). Estas son: a) Cálculo de componentes 
principales; b) Extracción de factores; c) Calculo de porcentajes de variabilidad; d) 
Cálculo de componentes principales a partir de la matriz de correlaciones; e) Matriz 
factorial; f) Cálculo de covarianzas y correlaciones entre variables originales y los 
factores; y  g) Cambios de escalas ee identificación de componentes. 


3.2 Aplicación de la metodología de desarrollo RUP 


Teniendo en cuenta lo anterior, se consideró establecer para el proceso de Análisis de 
Componentes Principales (ACP) las características únicas de ésta en la plataforma 
SoftProsp, en donde se determinaron las siguientes mejoras frente a las soluciones 
existentes: 

Aplicación del test de Barlett previo al ACP, con el fin de comprobar si la correlación 
entre las variables analizadas son lo suficientemente grande como para factorizar la 
matriz de coeficientes de correlación. 
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Representación con gráficos de sedimentación (Scree-plot) en la etapa de cálculo de 
componentes principales. Con el fin de evaluar visualmente cuáles componentes o 
factores explican la mayor parte de variabilidad de los datos. 

Implementación del método de rotación ortogonal Varimax en la etapa de extracción de 
factores, para minimizar el número de variables que tienen saturaciones altas en cada 
factor y simplificar la interpretación de los factores optimizando la solución por 
columna. 

Apoyo de la herramienta MICMAC de SoftProsp para contribuir en la comprensión e 
identificación de problemas y representar el sistema de variables, rediciendo así su 
complejidad. Ésta, con la ayuda de una matriz de análisis estructural identifica las 
variables y analiza las relaciones directas entre ellas. 

El módulo Encuesta de la plataforma, puede ser utilizada como una herramienta de 
recolección de información para, a partir de esta, disponer de la valoración media de una 
población. 


3.3 Integración de estadísticas bayesianas a SoftProsp 


En correlación a la última etapa del procedimiento de investigación, donde se procede a 
integrar el módulo análisis multivariado una vez desarrollada y probada de manera 
individual a la plataforma SoftProsp, con el fin de garantizar que los cambios no 
conlleven comportamientos no planeados o aparezcan errores adicionales, se utilizará la 
prueba de regresión, la cual será realizada manualmente usando herramientas de 
captura/reproducción automatizadas, permitiendo obtener casos de prueba y resultados 
para una posterior reproducción y comparación. 


En las últimas décadas se ha producido un gran crecimiento en la utilización de estas 
técnicas en todos los campos de la investigación científica. Algunas de las razones de 
este fenómeno son: (a) Análisis de relaciones simultáneas entre tres o más variables, (b) 
Modificación de la hipótesis a partir de la eliminación y adición continúa de variables y 
(c) Desarrollo de programas estadísticos fáciles de usar y con mayor prestación en el 
análisis de los datos. (Closas, Arriola, Kuc, Amarilla y Jovanovich, 2013) 


La importancia de la utilización del análisis de componentes principales, yace de que 
uno de los problemas principales que afectan al estudio de grandes masas de datos, es 
que las variables explicativas suelen ser muy parecidas: contienen información 
equivalente. En efecto, cuando un investigador reúne información sobre cualquier 
fenómeno tiende a incorporar diversas variables que son semejantes pero no iguales, de 
modo que el análisis resulta complejo y surgen graves problemas de colinealidad entre 
las variables X. Así, por ejemplo en regresión múltiple, cuando existe multicolinealidad, 
no queda más remedio que eliminar algunas variables. Pero eso implica una pequeña 
pérdida de información. (Góngora, 2010) 


IV. CONCLUSIONES 
Del ítem anterior se pudieron obtener las siguientes conlcusiones: 


Disminución de inconvenientes presentados en la realización de estudios prospectivos. 
Resultados con facilidad de interpretación con Scree-plot. Implementación de 
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herramientas para la optimización de algunas etapas del Análisis de Componentes 
Principales. Por último, posibilidad de complementar el PCA con otras técnicas de 
SoftProsp, MICMAC para la identificación del problema, variables y relaciones directas 
entre las variables y Encuesta para la recopilación de información para disponer la 
valoración media de una población. 
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